2 research outputs found
Catégorisation automatique de textes et cooccurrence de mots provenant de documents non étiquetés
Ayant pour objectif de rendre un programme informatique capable dâassigner de façon autonome des documents textuels Ă leur classe dâappartenance, la catĂ©gorisation automatique de textes est rendue possible grĂące Ă lâapprentissage supervisĂ©. Un entraĂźnement du programme est effectuĂ© sur un ensemble de documents auxquels des Ă©tiquettes de catĂ©gorie ont dĂ©jĂ Ă©tĂ© assignĂ©es par des humains. Or, la constitution de cet ensemble dâentraĂźnement se rĂ©vĂšle un processus long et coĂ»teux. Ce mĂ©moire propose une façon dâamĂ©liorer la capacitĂ© dâun classificateur Ă bien accomplir sa tĂąche dans des situations oĂč un entraĂźnement sur un nombre suffisant de textes nâaura pas Ă©tĂ© possible. Lâapproche suggĂ©rĂ©e consiste Ă Ă©tudier une forme dâassociation, la cooccurrence, entre les mots provenant dâun ensemble de textes libellĂ©s et ceux provenant dâun ensemble de textes non libellĂ©s, plus volumineux. On espĂšre ainsi augmenter Ă faible coĂ»t le vocabulaire utile Ă la classification de textes, en minimisant le nombre de documents Ă Ă©tiqueter.Automated text categorization consists of developing computer programs able to autonomously assign texts to predefined categories, on the basis of their content. Such applications are possible thanks to supervised learning, which implies a training phase on manually labeled documents. However, the construction of a training set is long and expensive. This study suggests a way to assist text classifiers in the gathering of the vocabulary when the size of the training set is limited. So, it is proposed to analyze word cooccurrence inside a text collection of many non-labeled documents, to augment the vocabulary produced by the analysis of the labeled texts. The representation of new documents to classify can then be modified in order to better match the vocabulary used by the classifier. What is expected, of course, is an improvement of its ability to categorize texts